18.4.1 Eureka: 인간 수준의 보상 함수 생성: 강화학습(RL)에 필요한 복잡한 보상 함수(Reward Function) 코드를 LLM이 직접 작성하고 수정하는 기술 *

18.4.1 Eureka: 인간 수준의 보상 함수 생성: 강화학습(RL)에 필요한 복잡한 보상 함수(Reward Function) 코드를 LLM이 직접 작성하고 수정하는 기술 *